安装并使用DeepGPU-LLM

在处理大语言模型(LLM)任务中,您可以根据实际业务部署情况,选择在不同环境(例如GPU云服务器环境或Docker环境)下安装推理引擎DeepGPU-LLM,然后通过使用DeepGPU-LLM实现大语言模型(例如Llama模型、ChatGLM模型、百川Baichuan模型或通义千问Qwen模型)在GPU上的高性能推理优化功能。

说明

LLM模型的特性适用于GPU计算型实例,更多信息,请参见GPU计算型(gn/ebm/scc系列)。本文以GPU计算型实例规格gn7i为例。

在GPU云服务器环境下安装DeepGPU-LLM

部分云市场镜像中已预装了DeepGPU-LLM工具,在创建GPU实例时,您可以一键获取预装DeepGPU-LLM的镜像来自动安装DeepGPU-LLM;也可以先购买GPU实例,然后手动安装DeepGPU-LLM。

自动方式(选择云市场镜像)

  1. 获取云市场镜像并创建GPU实例。

    云市场镜像中预装了DeepGPU-LLM工具,您可以通过以下两个入口获取云市场镜像。

    通过ECS购买页面获取

    1. 前往实例创建页

    2. 选择自定义购买页签。

    3. 按需选择付费类型、地域、实例规格、镜像等配置。

      需要注意的参数项设置如下图所示,其他配置项参数的详细说明,请参见配置项说明

      实例和镜像.png

      • 实例:以ecs.gn7i-c8g1.2xlarge,8 vCPU 30 GiB实例规格为例。

      • 镜像:以选择云市场镜像中的镜像为例,该镜像是阿里云免费提供的基于大语言模型LLM场景的AI推理解决方案镜像。在创建GPU计算型实例时,云市场镜像中提供了更多基于大语言模型LLM场景的AI推理解决方案镜像供您选择,具体镜像如下:

        更多镜像及版本信息

        支持的实例规格

        预装大语言模型框架的镜像

        最新版本

        GPU计算型实例

        预装deepgpu-llm的centos7.9系统

        24.3

        预装deepgpu-llm的ubuntu 20.04系统

        24.4

        预装deepgpu-llm的ubuntu 22.04系统

        24.3

        部署DeepGPU-LLM的Ubuntu镜像

        V 1.1.3

        deepgpu-llm-inference-ubuntu2004

        V 0.1

        预装deepgpu-llm的centos 8.5系统(uefi erdma)

        24.3

        预装deepgpu-llm的centos7.9系统(uefi erdma)

        24.3

        预装deepgpu-llm的ubuntu 20.04系统(uefi + erdma)

        24.3.1

        预装deepgpu-llm的ubuntu 22.04系统(uefi + erdma)

        24.3

        说明

        仅部分规格支持带有uefierdma的镜像,例如ebmgn7ix、ebmgn8is等,请您以实际控制台选择为准。

      • 公网IP:选中分配公网IPv4地址,带宽计费方式选择按使用流量,带宽峰值选择100Mbps,以加快模型下载速度。

    4. 按照页面提示操作,单击确定下单

    5. 在支付页面查看实例的总费用,如无疑问,按照提示完成支付。

    通过云市场获取

    1. 前往阿里云云市场页面

    2. 在页面的搜索框输入deepgpu-llm并按回车键。

    3. 选择需要的镜像类型,单击详情

      以选择预装deepgpu-llm的ubuntu 22.04系统镜像为例。

      Dingtalk_20240925154210.jpg

      云市场镜像中提供了更多基于大语言模型LLM场景的AI推理解决方案镜像供您选择,具体镜像如下:

      更多镜像及版本信息

      支持的实例规格

      预装大语言模型框架的镜像

      最新版本

      GPU计算型实例

      预装deepgpu-llm的centos7.9系统

      24.3

      预装deepgpu-llm的ubuntu 20.04系统

      24.4

      预装deepgpu-llm的ubuntu 22.04系统

      24.3

      部署DeepGPU-LLM的Ubuntu镜像

      V 1.1.3

      deepgpu-llm-inference-ubuntu2004

      V 0.1

      预装deepgpu-llm的centos 8.5系统(uefi erdma)

      24.3

      预装deepgpu-llm的centos7.9系统(uefi erdma)

      24.3

      预装deepgpu-llm的ubuntu 20.04系统(uefi + erdma)

      24.3.1

      预装deepgpu-llm的ubuntu 22.04系统(uefi + erdma)

      24.3

      说明

      仅部分规格支持带有uefierdma的镜像,例如ebmgn7ix、ebmgn8is等,请您以实际控制台选择为准。

    4. 在镜像详情页,单击自定义购买

      说明

      购买镜像时,系统镜像本身是免费的,您只需要支付GPU云服务器的费用。

    5. 在实例购买页的镜像区域,查看云市场镜像页签下是否已选中所购买镜像。

      下图以购买的镜像被选中为例,如果镜像未被选中,则您需要继续单击重新选择镜像,选择所需镜像。

      Dingtalk_20240925160849.jpg

    6. 在实例购买页,配置其他参数并创建GPU实例。

      其中,公网IP选中分配公网IPv4地址,带宽计费方式选择按使用流量,带宽峰值选择100Mbps,以加快模型下载速度。其他更多配置项信息,请参见配置项说明

  2. 远程连接已创建的GPU实例。

    具体操作,请参见使用Workbench工具以SSH协议登录Linux实例

  3. 执行以下命令,查看DeepGPU-LLM安装状态及版本。

    sudo pip list | grep deepgpu-llm

    显示结果如下,表示DeepGPU-LLM已成功安装且当前版本为24.3。

    deepgpu-llm.jpg

    说明

    您也可以执行sudo pip show -f deepgpu-llm命令查看已安装的DeepGPU-LLM相关详细信息。

  4. (可选)升级DeepGPU-LLM。

    如果安装的DeepGPU-LLM版本过低,不满足您的业务需求,您可以安装高版本的DeepGPU-LLM来实现升级操作。

    1. 进入DeepGPU-LLM安装包

    2. 找到待安装的DeepGPU-LLM包,右键单击复制链接地址获取安装包路径。

    3. 在GPU远程登录页面,执行以下命令,安装高版本的DeepGPU-LLM。

      本示例以下载deepgpu_llm-24.6+pt2.1cu121-py3-none-any.whl为例,请您替换成实际需要的DeepGPU-LLM版本。

      sudo wget https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm-24.6%2Bpt2.1cu121-py3-none-any.whl
      sudo pip install deepgpu_llm-24.6+pt2.1cu121-py3-none-any.whl
    4. 执行以下命令,查看DeepGPU-LLM版本是否升级。

      sudo pip list | grep deepgpu-llm

      显示结果如下,表示DeepGPU-LLM已成功升级为24.6版本。

      升级Deepllm.png

手动方式(选择公共镜像)

先创建GPU实例,然后在该GPU实例上安装DeepGPU-LLM。本文以选择公共镜像中的Ubuntu 22.04 64位系统或Alibaba Cloud Linux 3系统的镜像为例。

基于Ubuntu 22.04系统

  1. 创建GPU实例。

    1. 前往实例创建页

    2. 选择自定义购买页签。

    3. 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。

      需要注意的参数项设置如下图所示,其他配置项参数的详细说明,请参见配置项说明

      • 实例:以ecs.gn7i-c8g1.2xlarge 8 vCPU 30 GiB实例规格为例。

      • 镜像:在公共镜像中选择Ubuntu 22.04 64位。您可以选中安装GPU驱动选项同步安装GPU驱动、CUDA和CUDNN。

        镜像选择页面.jpg

      • 公网IP:选中分配公网IPv4地址,带宽计费方式选择按使用流量,带宽峰值选择100 Mbps,以加快模型下载速度。

    4. 按照页面提示操作,单击确定下单

    5. 在支付页面查看实例的总费用,如无疑问,按照提示完成支付。

  2. (条件必选)如果创建GPU实例时无法选中或忘记选中安装GPU驱动项,手动安装GPU实例的Tesla驱动和CUDA Toolkit。

    具体操作,请参见在GPU计算型实例中手动安装Tesla驱动(Linux)安装CUDA

  3. 远程连接GPU实例。

    具体操作,请参见使用Workbench工具以SSH协议登录Linux实例

  4. 依次执行以下命令,配置环境变量。

    export PATH=/usr/local/cuda-12.4/bin:$PATH
    export LD_LIBRARY_PATH=/usr/local/cuda-12.4/lib64:$LD_LIBRARY_PATH
  5. 依次执行以下命令,查看GPU实例的驱动以及CUDA是否安装成功。

    nvidia-smi
    nvcc -V

    显示结果如下所示,表示驱动和CUDA已安装成功。

    Dingtalk_20240926145659.jpg

  6. (条件必选)如果您的GPU实例规格族为ebmgn7、ebmgn7e、ebmgn7ex或sccgn7ex时,安装与驱动版本对应的nvidia-fabricmanager服务。

    具体操作,请参见安装nvidia-fabricmanager服务

  7. 执行以下命令,安装DeepGPU-LLM的部分依赖项。

    sudo apt-get update
    sudo apt-get -y install python3.10 python3-pip openmpi-bin libopenmpi-dev curl vim
  8. 执行以下命令,安装DeepGPU-LLM。

    说明

    下载和安装过程需要较长时间,请您耐心等待。

    根据所需DeepGPU-LLM版本和环境依赖PyTorch版本、CUDA版本,选择合适的DeepGPU-LLM安装包。如何获取最新DeepGPU-LLM版本号,请参见DeepGPU-LLM加速安装包

    sudo pip3 install deepgpu_llm=={DeepGPU-LLM版本号}+{PyTorch版本}{CUDA版本} \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

    例如{DeepGPU-LLM版本号}24.7.2{PyTorch版本}pt2.4{CUDA版本}cu124表示安装24.7.2版本的DeepGPU-LLM。

    sudo pip3 install deepgpu_llm==24.7.2+pt2.4cu124 \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
  9. 执行以下命令,查看DeepGPU-LLM安装状态及版本。

    sudo pip list | grep deepgpu-llm

    显示结果如下,表示DeepGPU-LLM已成功安装且当前版本为24.7.2。

    Dingtalk_20240926155919.jpg

基于Alibaba Cloud Linux 3系统

  1. 创建GPU实例。

    1. 前往实例创建页

    2. 选择自定义购买页签。

    3. 按需选择付费类型、地域、网络及可用区、实例规格、镜像等配置。

      需要注意的参数项设置如下图所示,其他配置项参数的详细说明,请参见配置项说明

      • 实例:以ecs.gn7i-c8g1.2xlarge实例规格为例。

      • 镜像:在公共镜像中选择Alibaba Cloud Linux 3.2014 LTS 64位,同时选中安装GPU驱动选项以同步安装GPU驱动、CUDA和CUDNN。

        Dingtalk_20240926162006.jpg

      • 公网IP:选中分配公网IPv4地址,带宽计费方式选择按使用流量,带宽峰值选择100Mbps,以加快模型下载速度。

    4. 按照页面提示操作,单击确定下单

    5. 在支付页面查看实例的总费用,如无疑问,按照提示完成支付。

  2. 远程连接已创建的GPU实例。

    具体操作,请参见使用Workbench工具以SSH协议登录Linux实例

  3. 依次执行以下命令,查看GPU实例的驱动以及CUDA是否安装成功。

    nvidia-smi
    nvcc -V

    Dingtalk_20240926163606.jpg

  4. 执行以下命令,安装DeepGPU-LLM的部分依赖项。

    sudo yum install epel-release
    sudo yum update
    sudo yum install openmpi3 openmpi3-devel curl
    sudo wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
    sudo chmod +x Miniconda3-latest-Linux-x86_64.sh
    sudo ./Miniconda3-latest-Linux-x86_64.sh
  5. 执行以下命令,修改环境变量。

    export PATH=/usr/lib64/openmpi3/bin:$PATH
    export LD_LIBRARY_PATH=/usr/lib64/openmpi3/lib:$LD_LIBRARY_PATH
  6. 执行以下命令,使能和配置Miniconda环境,并在该环境中安装Python。

    本示例以安装Python 3.10为例,如果需要安装Python 3.9,请您自行配置。

    sudo su
    /root/miniconda3/bin/conda init
    source ~/.bashrc 
    conda create -n py310 python=3.10
    conda activate py310 
  7. 执行以下命令,安装DeepGPU-LLM。

    说明

    下载和安装过程需要较长时间,请您耐心等待。

    根据所需DeepGPU-LLM版本和环境依赖PyTorch版本、CUDA版本,选择合适的DeepGPU-LLM安装包。如何获取最新DeepGPU-LLM版本号,请参见DeepGPU-LLM加速安装包

    pip3 install deepgpu_llm==24.7.2+pt2.4cu124 \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
  8. 执行以下命令,查看DeepGPU-LLM安装状态及版本。

    pip list | grep deepgpu-llm

    显示结果如下,表示DeepGPU-LLM已成功安装且当前版本为24.7。

    Dingtalk_20240926172709.jpg

在Docker环境下安装DeepGPU-LLM

手动安装方式

  1. 准备Docker环境。

    1. 执行以下命令,安装或升级docker-ce。

      • 基于Ubuntu操作系统

        sudo apt update
        sudo apt remove docker docker-engine docker-ce docker.io containerd runc
        sudo apt install apt-transport-https ca-certificates curl gnupg-agent software-properties-common
        sudo curl -fsSL https://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
        sudo apt-key fingerprint 0EBFCD88
        sudo add-apt-repository "deb [arch=amd64] https://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"
        sudo apt update
        sudo apt install docker-ce
        docker -v
      • 基于Alibaba Cloud Linux系统

        sudo yum remove docker docker-client docker-client-latest docker-common docker-latest docker-latest-logrotate docker-logrotate docker-engine
        sudo yum install -y yum-utils
        sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo
        sudo yum install docker-ce docker-ce-cli containerd.io
        sudo systemctl start docker
        sudo systemctl enable docker

        如果执行上述命令安装失败,您可以继续执行以下命令安装或升级docker-ce。

        yum-config-manager --add-repo https://mirrors.tuna.tsinghua.edu.cn/docker-ce/linux/centos/docker-ce.repo
        sed -i 's+https://download.docker.com+https://mirrors.tuna.tsinghua.edu.cn/docker-ce+' /etc/yum.repos.d/docker-ce.repo
        
    2. 执行以下命令,安装nvidia-container-toolkit。

      基于Ubuntu操作系统

      sudo curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \
        && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \
          sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \
          sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list \
        && \
          sudo apt-get update
      
      sudo apt-get install -y nvidia-container-toolkit
      sudo nvidia-ctk runtime configure --runtime=docker
      sudo systemctl restart docker

      基于Alibaba Cloud Linux系统

      distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
      curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | sudo tee /etc/yum.repos.d/nvidia-docker.repo
      yum clean expire-cache
      yum install -y nvidia-docker2
      systemctl restart docker

      如需了解更多信息,请参见Installing the NVIDIA Container Toolkit

  2. 执行以下命令,在Docker环境中拉取并启用Docker镜像。

    本示例以拉取pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel镜像为例。

    sudo docker pull pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel
    sudo docker run -ti --gpus all --name="deepgpu_llm" --network=host \
               -v /root/workspace:/root/workspace \
               --shm-size 5g pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel

    主要参数说明

    参数项

    说明

    --shm-size

    指定容器的共享内存大小,其大小会影响Triton服务器部署。

    例如:--shm-size 5g表示将共享内存大小设置为5 GB。您可以根据需要调整此值,以满足您的模型推理所需的内存需求。

    -v /root/workspace:/root/workspace

    将主机目录映射到Docker中的相应目录,使得主机和Docker之间可以共享文件,请根据您实际环境情况进行映射。

    pytorch/pytorch:2.1.0-cuda12.1-cudnn8-devel

    PyTorch的Docker映像标签

  3. 执行以下命令,安装依赖库。

    apt update
    apt install openmpi-bin libopenmpi-dev curl

    上述命令安装的openmpi-bin提供了OpenMPI、libopenmpi-dev软件包以及curl软件包。

  4. 安装DeepGPU-LLM。

    根据所需的DeepGPU-LLM版本和依赖PyTorch版本,通过pip3 install命令安装DeepGPU-LLM。如何获取最新DeepGPU-LLM版本号,请参见DeepGPU-LLM加速安装包

    sudo pip3 install deepgpu_llm=={DeepGPU-LLM版本号}+{PyTorch版本}{CUDA版本} \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html

    例如{DeepGPU-LLM版本号}24.3{PyTorch版本}pt2.1{CUDA版本}cu121表示安装24.3版本的DeepGPU-LLM。

    sudo pip3 install deepgpu_llm==24.3+pt2.1cu121 \
        -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
  5. 执行以下命令,查看DeepGPU-LLM安装状态及版本。

    sudo pip list | grep deepgpu-llm

    显示结果如下,表示DeepGPU-LLM已成功安装且当前版本为24.3。

    Dingtalk_20240929155256.jpg

容器镜像安装方式

使用DeepGPU-LLM容器镜像可以快速安装DeepGPU-LLM,您无需深入了解底层的硬件优化细节,该镜像拉取完成后,无需额外配置即可开箱即用。

  1. 获取DeepGPU-LLM容器镜像。

    1. 登录容器镜像服务控制台

    2. 在左侧导航栏,单击制品中心

    3. 仓库名称搜索框,搜索deepgpu选择目标镜像egs/deepgpu-llm

      DeepGPU-LLM容器镜像大概每3个月内更新一次。镜像详情如下所示:

      镜像名称

      组件信息

      镜像地址

      适用的GPU实例

      DeepGPU-LLM

      • DeepGPU-LLM:24.3

      • Python:3.10

      • PyTorch:2.1.0

      • CUDA:12.1.1

      • cuDNN:8.9.0.131

      • 基础镜像:Ubuntu 22.04

      egs-registry.cn-hangzhou.cr.aliyuncs.com/egs/deepgpu-llm:24.3-pytorch2.1-cuda12.1-cudnn8-ubuntu22.04

      DeepGPU-LLM镜像仅支持以下GPU实例选择,更多信息,请参见GPU计算型(gn/ebm/scc系列)

      • gn6e、ebmgn6e

      • gn7i、ebmgn7i、ebmgn7ix

      • gn7e、ebmgn7e、ebmgn7ex

  2. 安装DeepGPU-LLM。

    Docker环境安装完成后,拉取已获取的DeepGPU-LLM容器镜像来安装DeepGPU-LLM。具体操作,请参见安装DeepGPU-LLM操作步骤

使用DeepGPU-LLM运行模型

下载模型前,请确认您已成功登录GPU实例。更多信息,请参见连接方式概述

  1. 下载开源模型。

    modelscope是阿里达摩院提供的开源模型平台,以下载modelscope格式的通义千问-7B-Chat模型为例,您可以通过以下任一方式下载该模型。

    重要

    下载模型过程中,如果显示内存不足导致模型下载失败,您可以通过扩容云盘来解决,具体操作,请参见云盘扩容指引

    git lfs clone命令方式

    1. 进入ModelScope官网,搜索模型名称(例如qwen)。

    2. 在搜索页面的模型库区域,单击通义千问-7B-Chat

    3. 找到modelscope的专属模型名并复制模型ID。

      模型ID.jpg

    4. 执行以下命令,构建下载命令并下载模型ID。

      sudo git-lfs clone https://modelscope.cn/qwen/Qwen-7B-Chat.git
      说明

      下载模型时,如果提示git-lfs: command not found,表示当前系统中未安装git-lfs,请先执行以下命令安装该工具。

      sudo apt-get update
      sudo apt-get install git-lfs

    ModelScope库中的snapshot_download方式

    1. 进入ModelScope官网,搜索模型名称(例如qwen)。

    2. 在搜索页面的模型库区域,单击通义千问-7B-Chat

    3. 找到modelscope的专属模型名并复制模型ID。

      模型ID.jpg

    4. 准备download_from_modelscope.py脚本。

      脚本示例

      import argparse
      import shutil
      from modelscope.hub.snapshot_download import snapshot_download
      parser = argparse.ArgumentParser(description='download from modelscope')
      parser.add_argument('--model_name', help='the download model name')
      parser.add_argument('--version', help='the model version')
      args = parser.parse_args()
      base_dir = '/root/deepgpu/modelscope'
      model_dir = snapshot_download(args.model_name, cache_dir=base_dir,revision=args.version)
      print(model_dir)
    5. 执行以下命令,下载模型。

      模型下载前,您需要在通义千问-7B-Chat页面的模型文件页签下查看模型版本号。本命令以模型版本号为v.1.1.7为例。

      模型ID.jpg

      python3 download_from_modelscope.py --model_name Qwen/Qwen-7B-Chat --version v1.1.7
  2. 运行Qwen模型推理对话功能。

    1. 获取DeepGPU-LLM提供的脚本详细信息,便于运行LLM模型。

      DeepGPU-LLM提供了不同脚本帮助您直接运行相应类别的LLM模型,不同版本的DeepGPU-LLM提供的脚本不同,具体如下所示:

      • 24.9版本以下的DeepGPU-LLM提供了xxx_cli脚本(如llama_cliqwen_clibaichuan_clichatglm_cli等)运行LLM模型。

      • 24.9及以上版本的DeepGPU-LLM提供了deepgpu_cli脚本运行LLM模型。

      您可以执行xxx_cli -hdeepgpu_cli -h命令获取DeepGPU -LLM所提供的脚本信息。例如执行qwen_cli -h获取qwen_cli脚本的使用帮助信息。image

    2. 执行以下命令,使用脚本运行Qwen模型推理对话功能。

      xxx_cli --model_dir [MODEL_DIR] --tp_size [TP_SIZE] --precision [Type]
      • xxx_cli:脚本名称,请根据DeepGPU-LLM版本替换为相应的具体脚本名称,例如qwen_clideepgpu_cli

      • [MODEL_DIR]:模型文件所在的目录。请替换为LLM模型成功下载后存放的实际路径。

      • [TP_SIZE]:推理的GPU数量。

      • [Type]:推理时使用的精度类型。请根据实际需要选择fp16、int8、int4中的一种精度类型。

      以运行qwen_cli脚本加载qwen-7b-chat模型或qwen1.5-7b-chat模型推理进行对话为例。

      qwen-7b-chat模型

      qwen_cli --model_dir /home/ecs-user/Qwen-7B-Chat --tp_size 1 --precision fp16

      调用完成后,您可以输入内容和Qwen模型进行对话。例如:

      image

      qwen1.5-7b-chat模型

      qwen_cli --model_dir /home/ecs-user/Qwen1.5-7B-Chat --tp_size 1 --precision fp16

      调用完成后,您可以输入内容和Qwen模型进行对话。例如:

      image

  3. (可选)模型转换并运行模型推理对话功能。

    对于某些受限场景,可以提前做好模型转换,然后部署运行模型的推理对话功能即可。本步骤以qwen1.5-7b-chat模型为例。

    1. 转换模型格式。

      huggingface_model_convert --in_file /root/Qwen1.5-7B-Chat --saved_dir /root/qwen1.5-7b-chat --infer_gpu_num 1 --weight_data_type fp16 --model_name qwen1.5-7b-chat

      参数说明

      参数项

      说明

      huggingface_model_convert

      本参数表示模型的转换脚本。

      说明

      如果无法找到该命令,说明DeepGPU版本较老,您可以升级当前DeepGPU-LLM版本,具体操作,请参见(可选)升级DeepGPU-LLM;或者根据LLM模型类型,将model字段替换为具体的LLM名称,然后进行模型转换,具体查看help调整相应参数。

      --in_file

      指向下载的模型目录。上述示例仅供参考,请替换为模型成功下载后的实际路径。

      --saved_dir

      指向生成的模型目录。上述示例仅供参考,请替换为转换模型格式后实际保存路径。

      --infer_gpu_num

      设定推理运行的GPU数量(即模型切分份数)。

      --weight_data_type

      设置模型权重使用的数据类型,与预期计算的类型一致,可选fp16和bf16。

      --model_name

      模型名称。

    2. 执行以下命令,运行Qwen模型推理对话功能。

      qwen_cli --tokenizer_dir /root/Qwen1.5-7B-Chat --model_dir /root/qwen1.5-7b-chat/1-gpu/  --tp_size 1 --precision fp16

      参数说明

      参数项

      说明

      --tp_size

      配置的参数需要与转换时--infer_gpu_num设定的参数一致。

      --precision

      用于设置是否要对权重进行量化,可选fp16、int8和int4。

      Dingtalk_20241011173236.jpg

常见问题

  • 问题:在Ubuntu 20.04系统上GPU上,执行以下命令安装DeepGPU-LLM时失败。

    apt-get update
    apt-get -y install python3-pip openmpi-bin libopenmpi-dev curl vim
    pip3 install deepgpu_llm -f https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/deepgpu_llm.html
  • 原因及措施:由于apt无法直接安装python 3.10,直接放弃python 3.10安装,安装其他组件即可。安装过程中可能会被动安装gdm3模块导致系统变为图形界面,而非默认的命令行,您可以通过以下命令关闭。

    systemctl disable gdm3
    reboot

联系我们

如果您在安装和使用DeepGPU-LLM过程中遇到问题,欢迎加入钉钉群23210030587寻求帮助(钉钉通讯客户端下载地址)。